词条的文档频率(Document Frequency)是指在训练语料中出现该词条的文档数。文档频率方法提取文档频率较高的特征,它的目的是去掉在训练集上出现次数过少的特征,保留具...
基于166个网页-相关网页
对于特征词t,各种选择标准的含义如下: 1.文档频数(Document Frequency): 即是特征t在文本集中出现的文档数。它是最简单的评估函数,其值为 训练集合中该单词发生的文本数。
基于42个网页-相关网页
... ( 3) 其中:有 tf i, j 为词条频度 ( term frequency) ,指单词 i在文档 j中 出现的次数; df i 为文档频度 ( document frequency) ,是出现单词 i的文档数。
基于40个网页-相关网页
单词贡献度[2], 下面对它们做一下简单介绍,具体请参考文献[2]。 1.1 文档频(DF) 文档频(document frequency, DF)是最易理解的 一种无监督特征选择方法。某个词的文档频是在整 个文本集中出现该词的文本数。文档频的理论
基于8个网页-相关网页
Inverse Document Frequency 逆文档频率 ; 逆文本频率指数 ; 倒数 ; 逆向文件频率
inverted document frequency 文档频率 ; 为反转文件频率 ; 反转文件频率
Inverse Document Frequency IDF 逆文本频率指数
Term frequency-inverse document frequency 文档频率法
TermFrequencyInverse Document Frequency 法
relative document frequency 相对文档频
document frequency optimization 文档频率优化
self-adaptive inverse document frequency 自适应倒排文档频率
test document word frequency 说明测文件中单词出现次数
But there are exist some defects. It's unreliable for low-document frequency,and it didn't show the pertinence for term and classification.
但也存在着缺陷和不足,它对低文档频的特征项不可靠,而且不能说明词条和类别的相关性。
参考来源 - 文本分类中的关键技术研究·2,447,543篇论文数据,部分数据来源于NoteExpress
On feature selection, document frequency was combined with mutual information, and performance was improved.
特征选择的方法上,结合了文档频数和互信息量,并对他们进行了改进。
However, because the method of DF only USES document frequency to scale the distinguish capacity, we find it has two disadvantages.
但是通过分析我们发现,由于仅仅使用文档频率来衡量特征的区分能力,文档频率方法存在两个问题。
Still, the mathematical models used to rank results are usually some variation of the common term-frequency/inversed document frequency model, which is well-mapped territory.
尽管如此,用于排序结果的数学模型通常是常用的 词频/倒排文档频率模型的变体,而对于这种模型,已有很好的研究基础。
应用推荐